智能论文笔记

Use and Misuse of Machine Learning in Anthropology

Jeff Calder , Reed Coil , Annie Melton , Peter J. Olver , Gilbert Tostevin , Katrina Yezzi-Woodley

分类：机器学习 | 计算机视觉

2022-09-06

现在，整个研究社区都可以广泛使用机器学习（ML），它促进了这些新兴的数学技术在广泛学科中的新型和引人注目的应用的扩散。在本文中，我们将重点介绍一个特定的案例研究：古人类学领域，该领域旨在根据生物学和文化证据理解人类的演变。正如我们将表明的那样，ML算法的易用性以及在人类学研究界的适当使用方面缺乏专业知识，导致了整个文献中出现的基本错误应用。结果不可靠的结果不仅破坏了将ML合法纳入人类学研究的努力，而且还会对我们的人类进化和行为过去产生潜在的理解。本文的目的是简要介绍古人类学中ML的某些方式；我们还为那些与该领域完全熟悉的人提供了一些基本ML算法的调查，而该领域仍在积极发展。我们讨论了一系列的错误，错误和违反正确的ML方法方案的行为，这些方法经常在人类学文献的积累体内出现令人不安。这些错误包括使用过时的算法和实践；不适当的火车/测试拆分，样本组成和文本解释；以及由于缺乏数据/代码共享以及随后对独立复制的限制而缺乏透明度。我们断言，扩大样本，共享数据和代码，重新评估同行评审的方法，以及最重要的是，开发包括ML专家在内的跨学科团队对于将ML在人类学中纳入ML的未来研究的进步都是必要的。

translated by 谷歌翻译

EmoMent: An Emotion Annotated Mental Health Corpus from two South Asian Countries

Thushari Atapattu , Mahen Herath , Charitha Elvitigala , Piyanjali de Zoysa , Kasun Gunawardana , Menasha Thilakaratne , Kasun de Zoysa , Katrina Falkner

分类：自然语言处理

2022-08-17

人们经常利用在线媒体（例如Facebook，reddit）作为表达心理困扰并寻求支持的平台。最先进的NLP技术表现出强大的潜力，可以自动从文本中检测到心理健康问题。研究表明，心理健康问题反映在人类选择中所表明的情绪（例如悲伤）中。因此，我们开发了一种新颖的情绪注释的心理健康语料库（Emoment），由2802个Facebook帖子（14845个句子）组成，该帖子从两个南亚国家（斯里兰卡和印度）提取。三名临床心理学研究生参与了将这些职位注释分为八类，包括“精神疾病”（例如抑郁症）和情绪（例如，“悲伤”，“愤怒”）。 Emoment语料库达到了98.3％的“非常好”的跨通道协议（即有两个或更多协议），而Fleiss的Kappa为0.82。我们基于罗伯塔的模型的F1得分为0.76，第一个任务的宏观平均F1得分为0.77（即，从职位预测心理健康状况）和第二任务（即相关帖子与定义的类别的关联程度在我们的分类法中）。

translated by 谷歌翻译

GEDI: A Graph-based End-to-end Data Imputation Framework

Katrina Chen , Xiuqin Liang , Zhibin Zhang , Zheng Ma

分类：机器学习

2022-08-13

数据插补是处理缺失数据的有效方法，这在实际应用中很常见。在这项研究中，我们提出并测试一个实现两个重要目标的新型数据归合过程：（1）保留观测值之间的行相似性和功能矩阵中特征之间的列背景关系，以及（2）量身定制插补。处理特定下游标签预测任务。所提出的插补过程使用变压器网络和图形结构学习来迭代地完善观察值之间特征和相似性之间的上下文关系。此外，它使用一个元学习框架来选择对下游预测任务影响的功能。我们对现实世界中的大数据集进行实验，并表明所提出的插补过程始终在各种基准方法上改善插补和标签预测性能。

translated by 谷歌翻译

Sparse Coding with Multi-Layer Decoders using Variance Regularization

Katrina Evtimova , Yann LeCun

分类：计算机视觉 | 机器学习

2021-12-16

稀疏编码与$ l_1 $罚化和学习的线性词典需要正规化字典以防止$ l_1 $ norms的代码中的崩溃。通常，此正则化需要绑定字典元素的欧几里德规范。在这项工作中，我们提出了一种新颖的稀疏编码协议，其防止代码中的崩溃，而无需正常化解码器。我们的方法直接正规化代码，使每个潜在代码组件具有大于固定阈值的差异，而不是给定一组输入集的一组稀疏表示。此外，我们探讨有效地利用多层解码器培训稀疏编码系统的方法，因为它们可以模拟比线性词典更复杂的关系。在我们的MNIST和自然形象补丁的实验中，我们表明，通过我们的方法学习的解码器具有在线性和多层外壳中的可解释特征。此外，我们显示使用我们的方差正则化方法训练的多层解码器具有多层解码器的稀疏自动置分机，与具有线性词典的自动码器相比，使用稀疏表示具有稀疏表示的更高质量的重建。此外，通过我们的差异正规化方法获得的稀疏表示可用于低数据制度的去噪和分类的下游任务。

translated by 谷歌翻译

Sharing Pain: Using Pain Domain Transfer for Video Recognition of Low Grade Orthopedic Pain in Horses

Sofia Broomé , Katrina Ask , Maheen Rashid , Pia Haubro Andersen , Hedvig Kjellström

分类：计算机视觉

2021-05-21

骨科疾病在马匹中常见，通常导致安乐死，这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的，因为所产生的疼痛行为也是微妙的，稀疏出现，变得不同，使得甚至是专家兰德尔的挑战，为数据提供准确的地面真实性。我们表明，一款专业培训的模型，仅涉及急性实验疼痛的马匹（标签不那么暧昧）可以帮助识别更微妙的骨科疼痛显示。此外，我们提出了一个问题的人类专家基线，以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后，这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。

translated by 谷歌翻译